Obstáculos éticos para combatir los algoritmos policiales con sesgos raciales

19 de febrero, 2020

A finales del año calendario 2019, Jeff Pastor, concejal de la Ciudad de Cincinnati, Ohio, pidió una revisión exhaustiva de las disparidades raciales en la vigilancia policial de la ciudad. Pastor pidió a la ciudad una evaluación ante los resultados de un informe ampliamente divulgado realizado por The Stanford Open Policing Project (El Proyecto de Policía Abierta de Stanford). El informe encontró discrepancias raciales significativas en las detenciones de conductores por parte de la policía de la ciudad, incluyendo el hallazgo de que "la policía de Cincinnati realiza un 120% más de detenciones de conductores por residente en los barrios predominantemente negros que en los blancos".

El llamamiento a una revisión revitalizó el debate tanto entre los activistas a favor de la responsabilidad policial como en los círculos de las políticas públicas. Una de las principales preocupaciones que sigue en ascenso es ¿qué pasará con los datos policiales potencialmente sesgados a medida que la vigilancia policial predictiva y otras estrategias basadas en datos se vuelven más comunes?. Si las interacciones policiales están sesgadas, esos datos, una vez introducidos en un modelo predictivo pueden dar lugar a un resultado prejuicioso, dirigiendo a la policía hacia comportamientos sesgados, incluso sin el conocimiento o consentimiento del oficial. Como dice el refrán, ahora cliché, "basura entra, basura sale".

Las mejoras no son exactamente simples

Académicos, activistas y aficionados ya han logrado grandes avances al llevar la cuestión de la equidad algorítmica a la primera fila de la atención del gran público. La proliferación del reconocimiento facial se ha frenado en varios lugares hasta que puedan ser desarrolladas salvaguardias razonables. Esto aconteció después de que se hicieran publicas las disparidades raciales, en parte debido a que la inteligencia artificial (IA) fue entrenada con conjuntos de datos homogéneos que no incluyeron a individuos con tonos de piel más oscuros.

Pero la creación de conjuntos de datos inclusivos como una solución no siempre es aplicable, especialmente cuando se trata de la vigilancia policial predictiva basada en datos policiales históricos. Crear un marco ético es difícil. Con la vigilancia policial predictiva, no son los científicos de datos los que crean los conjuntos de datos. No se trata únicamente de que un conjunto sea demasiado homogéneo, sino que el problema es que los datos históricos que se encuentran disponibles están potencialmente contaminados antes de ser introducidos en cualquier modelo predictivo. Un modelo estadístico podría adherir a los más altos estándares de escrutinio científico, pero eso podría no importar cuando los individuos sobre el terreno pueden introducir datos sesgados.

Expectativas integradas

Esto trae aparejada la cuestión de en qué proporción los científicos de datos deberían jugar “a la defensiva preventiva”, por así decirlo. Hace unos meses, se celebró el simposio de la organización Students of Color in Public Policy en la Escuela Goldman de Políticas Públicas de la UC Berkeley, con el tema de la Raza en la Inteligencia Artificial como una de las principales sesiones. El panel estaba integrado por expertos en políticas que investigaban los potenciales perjuicios de la injusticia algorítmica y los incesantes esfuerzos por parte de los activistas para hacer que los sistemas gubernamentales sean más transparentes.

El panel discutió un estudio de Stanford de 2017 sobre las disparidades raciales en el uso del lenguaje de los oficiales de la policía de Oakland. Los investigadores de este estudio emplearon un modelo lingüístico computacional para identificar patrones de habla. El punto relevante fue que el modelo podía detectar con considerable precisión, si un oficial se encontraba hablando o no con un residente negro o blanco, basándose exclusivamente en una transcripción de la conversación.

Una de las científicas de datos del panel sugirió que ese estudio era motivo de optimismo. Su argumento fue que si pudiéramos identificar la tasa de sesgo racial, como aparentemente hizo este estudio, entonces se podría utilizar una función de ajuste para infravalorar la puntuación del grupo demográfico discriminado. Existen aspectos negativos, pero las técnicas predominantes en la paridad estadística, las "técnicas de desconocimiento" y otras estrategias de "justicia" son prometedoras para luchar contra los prejuicios. Sin embargo, en la práctica, esta cuestión sigue siendo problemática.

¿La introducción de ajustes excusa el racismo?

Imagine que la policía está utilizando un determinado software de "zona conflictiva" que emplea la hora, ubicación y los informes históricos de delitos como variables para pronosticar el riesgo de un delito futuro. Una estrategia posible sería identificar primero la propensión a una vigilancia policial sesgada. Supongamos que se determinó que una cuadrícula particular de una ciudad tenía una alta densidad relativa de minorías raciales y se encontraba excesivamente vigilada. Por lo tanto, se podrían ajustar a la baja las variables asociadas a ese sector de la ciudad, lo que sugeriría que estas observaciones en el conjunto de datos son "menos fiables".

En un escenario en el que se utilizan muchas variables predictoras, similar a los pronósticos contemporáneos de terrenos de riesgo (en contraposición con el modelo de la zona conflictiva de "¿Qué? ¿Dónde? ¿Cuándo?"), se podrían asignar diferentes ajustes a las variables.

Si bien no existen ejemplos actuales de vigilancia policial predictiva previa a la comisión de un delito que tengan por objeto elaborar un pronóstico para los miembros de un determinado grupo demográfico, una idea como la de agregar ajustes variables parece ser bien recibida para abordar la parcialidad de las puntuaciones de reincidencia.

A lo largo de los años, un número cada vez mayor de jurisdicciones de los Estados Unidos han incorporado "puntuaciones de evaluación de riesgos" para ayudar a determinar la probabilidad de reincidencia delictiva. Utilizado principalmente en las audiencias de libertad condicional o de fianza, una investigación de ProPublica en 2016 determinó que:

Al pronosticar quién reincidiría, el algoritmo [de evaluación de riesgos] cometió errores con los acusados negros y blancos aproximadamente en la misma proporción, pero de maneras muy diferentes. Era especialmente probable que la fórmula señalara falsamente a los acusados negros como futuros delincuentes, etiquetándolos erróneamente de esta manera a casi el doble de la tasa de los acusados blancos. Los acusados blancos fueron erróneamente etiquetados como de bajo riesgo con más frecuencia que los acusados negros.

Al observar esto, una enorme tentación que podría inferirse del testimonio de la mencionada panelista es, "Si el Grupo Demográfico X está siendo discriminado a una Tasa de Sesgo Y conocida, y tenemos un modelo predictivo que incluye información demográfica, podemos entonces ajustar las variables para el Grupo Demográfico X a fin de compensar la Tasa de Sesgo Y conocida".

A pesar de las mejores intenciones, existe el grave riesgo de que esa reforma esté aceptando implícitamente un grado de racismo. En ambos casos, al alterar a la baja un sector de la ciudad o las puntuaciones de un grupo demográfico en particular, un grado de parcialidad está siendo aceptado e incorporado en el modelo.

Esto podría crear la falsa sensación de que el problema del sesgo ha sido "resuelto". Esto podría llevar a que se ponga menos énfasis en la capacitación contra los prejuicios. Las fuerzas del orden o el Estado podrían sentir la necesidad de corregir los problemas percibidos con el modelo. Las personas que participan en el sistema de justicia pueden sentirse menos responsables si piensan que, a fin de cuentas, el modelo corregirá sus acciones.

Además, esto introduce nuevos problemas éticos. En el caso de la vigilancia policial predictiva previa a la comisión de un delito, ¿qué ocurre si hay sentimientos cambiantes en la aplicación de la ley que superan la capacidad del algoritmo predictivo? Los modelos predictivos pueden ser deficientes para dar cuenta de nuevos cambios drásticos. Supongamos que en un caso concreto las fuerzas del orden están más sesgadas que el ajuste asignado. En ese caso, ¿la tendencia será a descartar ese grado de sesgo porque no se ajusta a la norma? Supongamos que la aplicación de la ley está menos sesgada que el ajuste. En ese caso, ¿la compensación incorporada por el sesgo se convierte en un privilegio poco ético para un grupo demográfico determinado?

La tasa de sesgo también podría ser totalmente errónea o inaplicable. Estos algoritmos utilizan datos históricos, que en algunos casos se remontan a diez años atrás. Es poco probable que estos datos puedan ser generalizables en algún grado exacto. ¿La tasa de sesgo es estática a través del tiempo y el lugar? ¿La policía de Oakland, California, tiene la misma cantidad de parcialidad y contra las mismas poblaciones que la policía de El Paso, ¿Texas? Es dudoso. ¿La policía de Seattle en 2020 tiene la misma cantidad de sesgo que en 2010 cuando la demografía de la ciudad era diferente?

¿Esto requiere entonces que cada jurisdicción que utiliza algoritmos en materia de justicia también cuantifique cuán sesgados son sus datos? En caso afirmativo, ¿con qué frecuencia debería auditarse esta cifra? Si una respuesta es deshacerse de algunos datos históricos, eso socavaría la fuerza de los algoritmos predictivos, ya que requieren tantos puntos de datos como sea posible para mantener la exactitud.

¿Deberíamos o no incluir información demográfica?

En respuesta a las acusaciones de perpetuar los prejuicios raciales, PredPol, uno de los mayores proveedores de software de vigilancia policial predictiva, ha hecho hincapié en que no utilizan cierta información demográfica como la raza (aunque eso no satisface en absoluto la queja de potenciales disparidades raciales por otros motivos). Esto podría ser para mejor, pero el jurado aún no está deliberando.

La identificación de disparidades raciales con datos ha demostrado ser útil. Pero, como han argumentado muchos activistas y académicos, destacándose aquellos que siguen la tradición de la obra de Foucault sobre gubernamentalidad, los datos demográficos también corren el riesgo de poner a los individuos en una caja histórica y clasificarlos en categorías burocráticas. Los datos de los censos, por ejemplo, se utilizaron en los Estados Unidos para la reclusión de los japoneses y en la Alemania nazi, fueron usados para rastrear a la población judía. Incluso si no se emplean con fines explícitamente malévolos, los datos demográficos pueden reforzar una separación. Podrían cimentar la existencia de un "otro".

La pregunta entonces es, ¿qué pasa si persiste el prejuicio, incluso sin datos demográficos? Si elimináramos esos datos, ¿estaríamos dañando irreparablemente nuestra capacidad de identificar el verdadero sesgo?

Conclusión

El uso de algoritmos en la aplicación de la ley no parece ser una moda pasajera. A medida que la vigilancia policial predictiva previa a la comisión de delitos y la evaluación de riesgos continúa creciendo, el campo de la ciencia de los datos y de las ciencias sociales deben permanecer alertas. No se puede olvidar que hay humanos del otro lado del modelo. Se debe interrogar a los datos, seguir las mejores prácticas y dialogar.

Artículos relacionados